A computação de alto desempenho moderna enfrenta um fundamental "Parede da Memória": o crescimento explosivo na taxa de processamento (FLOPS) superou em muito os aumentos modestos em banda de memória global largura de banda. Essa discrepância transforma arrays de múltiplos núcleos em processadores "esfomeados", aguardando dados.
1. A Lacuna de Largura de Banda
Embora uma GPU possa realizar trilhões de operações por segundo, o caminho físico até a DRAM é limitado pela densidade de pinos e pelos requisitos de potência. Memória como Fator Limitante para a Parallelismo significa que, à medida que você escala o número de threads, a largura de banda por thread diminui, levando a ciclos de espera onde o hardware permanece ocioso.
2. A Analogia da Cozinha
Imagine uma cozinha de última geração (os núcleos da GPU) capaz de cozinhar 1.000 refeições por hora. No entanto, os ingredientes estão em um armazém (memória global) a cinco quilômetros de distância, e há apenas uma moto de entrega (o barramento de memória). Não importa quantos chefs você contrate, sua produção é limitada pela velocidade da moto.
3. Contraste Arquitetônico
Um sistema padrão sistema de CPU de múltiplos núcleos usa grandes caches para esconder a latência para alguns threads pesados. Arquiteturas paralelas massivas, no entanto, enfrentam um constante "engarrafamento" de solicitações concorrentes. Limitações de recursos nos níveis de registradores e memória compartilhada definem o nível máximo de paralelismo (ocupação) alcançável antes que o hardware seja sobrecarregado.